Итак, датафрейм состоит из 6597 строк и 11 столбцов. У всех колонок корректный тип данных. Достаточно много пропущенных значений, чуть больше полутора тысяч. 658 из них в колонке date_order, 934 в result_data_order. Это 10 и 14 процентов соответственно. Данные по заказам представлены за период с 01.01.2021 по 26.04.2021 г. Интересно, что число заказов стабильно росло примерно до начала марта, потом началось падение. Распределение скошенное. Уникальных заказов в датафрейме 5976 штук. Таймслотов целых 7, то есть существуют заказы, доставку которых переносили 6 раз. Данные о фактически доставленных товарах есть только до 15 марта. Странно, учитывая, что заказы есть аж до 26 апреля. Типа доставки 2: курьер и самовывоз (3502 и 3095 заказов соответственно). Компания пользуется услугами 5 различных перевозчиков. Самый популярный - самодоставка. В датафрейме заказы от 167 различных продавцов. Существует 5 различных статусов заказа, больше всего имеют статус "Доставлен" - 5694 шт. (не уникальных номеров заказов). Кластеров покупателей 12 штук, самый популярный - кластер Москва. Кластеров склада 11, Москва также самый популярный. Есть один дубликат - номер заказа 344629456.
В представленном датафрейме 12233 строки и 4 колонки. Информация представлена по 5976 заказам. Всего 7057 различных наименований товаров, покупаются примерно с одинаковой частотой. Распределние цен очень красивое, почти нормальное) Есть небольшое количество очень дорогих товаров. Средняя цена 5156 руб. Максимум в заказах по 4 товара одного наименования. Пропущенных значений нет, дубликатов нет.
В датафрейме 496 строк и 4 колонки. К типам данных вопросов нет. Есть 100 дубликатов, что составляет 20% всех данных.Возвраты есть к 282 уникальным заказам. Всего есть информация о 338 наименованиях товаров. Чаще всего возвращают 1 шт. одного наименования товара. Есть некорректные даты (01.01.1970). Пропущенных значений нет.
Хотелось бы в конце сделать небольшое пояснение о том, что в SQL эти запросы выглядели бы значительно короче и, возможно, читабельнее. Но я изначально решила делать это задание на python, в том числе потому, что на SQL уже было первое задание. И в итоге оцениваю свое решение как правильное, поскольку данные сильно зашумлены и нуждались в очистке. Просто приложить запросы в SQL было бы проще, но к результатам могли бы быть вопросы.